随着作者的数量在多年来呈指数增长,共享相同名称的作者数量正在按比例增加。这使得将新发表的论文分配给其足够的作者是一项挑战。因此,作者名称歧义(ANA)被认为是数字库中的关键开放问题。本文提出了一个作者名称歧义(和)方法,该方法通过利用其合着者和研究领域来将作者姓名与其现实世界实体联系起来。为此,我们使用了DBLP存储库中的收藏集,其中包含大约260万名合着者撰写的超过500万本书目记录。我们的第一组作者共享相同的姓氏和相同的名字名称。通过捕获与他/她的合着者和研究领域的关系来确定每个小组内的作者,这是由相应作者的经过验证的出版物的标题代表的。为此,我们训练一个神经网络模型,该模型从共同作者和标题的表示中学习。我们通过在大型数据集上进行大量实验来验证方法的有效性。
translated by 谷歌翻译